第 4 章  ·  准备工作与环境搭建

第4章 第4节 准备工作与环境搭建


第4章 第4节 准备工作与环境搭建

阅读指南

在上一节中,我们讲到了AI应用开发的两种方式:调用API和自建模型。现在开始动手,完成第一次API调用。本节先从准备工作入手——了解主流服务商、选择模型、注册账号、安装开发环境。

免费使用 vs API调用

需要注意的是,大多数大模型在网站上使用是免费的(如DeepSeek网页版、豆包网页版、APP),但通过API调用来开发自己的应用是收费的。这是一种常见的商业模式:


4.1 LLM主要服务商总览

市面上提供API的大模型服务商很多。每家发布新模型的时候都使劲儿搁那儿吹牛。我们介绍模型的时候废话就不多说了,只标记出他们自身的特点(相对于其他模型,他有什么独特的地方)。

国外三巨头

OpenAI(ChatGPT):行业标杆,最新GPT-5系列。提供多种规格:GPT-5(标准版)、GPT-5-mini(轻量版)、GPT-5-nano(极简版)。OpenAI的API是"半标准",几乎其他所有的大模型提供商都会兼容ChatGPT的API。

Google Gemini:谷歌的旗舰模型,最新Gemini 3.1 Pro。优势是原生支持视频理解和百万级上下文,与Google生态(Docs、Drive等)深度集成。个人认为Gemini同GPT、Opus相比没有优势(其实差距有点大,至少落后6个月),但是他在前端开发的审美上是绝对的王者。你不需要过度细化提示词,Gemini自己默认的UI都能惊艳到你。

Anthropic Claude:Anthropic公司开发,最新Claude Opus 4.6(旗舰)和Claude Sonnet 4.6(常规)。编程开发是他最擅长的——2026年4月年费超100万美元的企业客户突破1000家,财富10强中8家使用Claude。在代码生成赛道占据42%-54%的全球市场份额(OpenAI仅21%)。他家的Claude Code是程序员界综合评价最高的Coding Agent,9个月创下25亿美元ARR(年化收入),工程团队70%-90%的代码由其生成。

国内主流服务商

智谱AI(GLM):国产自主通用大模型,最新GLM-5.1。我感觉长程任务能力挺强,适合跑Agent。国产自主可控,适合对数据安全有要求的场景。

DeepSeek:最新V4系列。依然是价格屠夫,学生党、实验开发的首先。提供V4-Pro(1.6T参数)和V4-Flash(284B参数)两个版本,全线标配100万token上下文。完全开源。

阿里通义千问(Qwen):阿里旗下,最新Qwen3.6-Plus。优势是模型家族丰富,覆盖从轻量到旗舰的多个版本,除了文本大模型,还有图像、视频、语音等多模态大模型(太多了)。

字节跳动豆包(Doubao):最新Doubao seed 2.0(2026年2月发布)。优势是多模态能力强,特别是视频理解和语音合成。但说实话,豆包更适合消费级应用(短视频、直播、客服),在编程开发这块儿相对弱势一些。如果你是做多媒体内容生成、语音交互的项目,豆包值得考虑;如果是纯代码开发,可能Qwen或Claude更合适。

以上模型评价基于我自己的感受和程序员的综合评价。

月之暗面(Kimi):最新Kimi K2.6。在前端UI开发上审美也不错。

MiniMax:最新M2.7。没用过,不评价。

Important

关于价格和模型版本的说明

大模型的价格几乎每天都在变化,不同模型版本的价格差异也很大。比如DeepSeek在V3.2时是一个价格,发布V4时就又调整了。因此,这里不提供具体价格数字,避免误导。

建议:在选择API时,请直接访问各服务商的官方网站,查看最新的价格和模型信息。

大致趋势是:国外模型(OpenAI、Google、Anthropic)价格较高,但能力强;国内模型(DeepSeek、Qwen等)价格更具竞争力,性价比更高。初学者可以从赠送免费Tokens的平台开始体验。

4.2 关于免费的心理预期调整

很多人在接触AI开发之前,习惯了互联网上丰富的免费资源——免费的教程、免费的工具、免费的开源库。但在AI时代,这个逻辑不太适用了。

调用API开发AI应用,基本上没有免费的路可走。

部分平台会在新用户注册时赠送一些免费Tokens,但这些用量非常有限,可能只够你跑几个测试案例,连完整学习一遍都不够。比如赠送100万Tokens,听起来不少,但实际开发中,几次复杂对话、几轮调试,可能就消耗掉大半。

这不是服务商小气,而是大模型的运行成本确实很高。每次调用都需要消耗大量的GPU算力,这些都是真金白银的支出。

学习AI开发,基本上只有两条路:

第一条路:付费使用API。这是绝大多数人的选择,也是最现实的路径。好在国内模型的价格已经很低了,对于学习和个人项目来说,每月几十到几百元的支出完全可以接受。就当是买了一本交互式的技术书,边学边用。

第二条路:自己搭建。买显卡、搭服务器、部署开源模型,自己跑自己的。这种方式没有API调用费用,但前期硬件投入更大,而且需要一定的技术门槛。适合有深度学习背景或者公司有现成GPU资源的情况。

对于本书的读者来说,建议直接选择第一条路。充值一点钱,开始动手实践,这是最快的学习方式。

4.3 选择你的第一个LLM伙伴

虽然我们主要是使用Qwen,但OpenAI的ChatGPT是无论如何也回避不了的一个模型。因为ChatGPT的API是一个"半标准",几乎其他所有的大模型提供商都会兼容ChatGPT的API风格。

Tip

其实学习哪家的API并不重要,基本所有的服务商提供的API风格都和ChatGPT类似。所以我们后续是选择ChatGPT、Qwen还是DeepSeek,实际上都是以ChatGPT的标准在讲解。

这些LLM最大的差别还是在收费和模型性能上。

本书为什么选择DeepSeek和Qwen?

我们选择这两个,主要基于性价比和学习成本考虑:

Qwen(通义千问):注册时会赠送100万Tokens(以官网活动公开为准),对于学习和实验来说够用。模型家族丰富,从轻量到旗舰版本都有,适合不同场景。国产模型里生态比较完善的。

DeepSeek:没有赠送Tokens,但价格很低,充个十块钱、二十块钱就够把本书的内容学完。完全开源,性价比是它最大的优势。

Note

关于费用的说明

上面说的几十块钱,是指常规API调用的学习费用(如对话、翻译、文本生成等)。但不包括智能体。

智能体(Agent)的运行成本会高很多。因为智能体在执行任务时,会自动进行多轮推理、工具调用、循环迭代。有时你只发一句"你好",就可能消耗十几万Tokens。

这两个是国产模型里比较推荐的,价格低、文档清晰、调用稳定。如果你有其他偏好的模型,也完全可以替换使用。

开源情况

Tip

在后续的实战开发中,将涉及不少库安装、环境与参数配置。建议先阅读关于"vibe-coding"的相关章节,并使用 Qoder 进行自动安装与配置,从而免去繁琐的手工步骤。

书中仍会给出相应的手工配置流程,供参考,但强烈建议优先使用 Qoder 自动化完成。毕竟我们不是学习各种库的安装和环境配置,能让AI代劳的就省点时间。

4.4 准备工作(Qwen)

获取Qwen API密钥

密钥类似于应用的身份和密码,是调用API必备的凭证。DeepSeek 的获取流程与 Qwen 类似。

注册账号

  1. 访问Qwen开放平台(阿里的平台名叫:阿里云百炼):

https://dashscope.aliyun.com

  1. 点击"注册",使用手机号或邮箱完成注册
  2. 完成基础认证后登录控制台

创建API密钥

  1. 进入控制台左侧菜单 → 【密钥管理】
  2. 点击"创建 API Key"
  3. 复制生成的 API Key(格式类似:sk-xxxxxxxxxxxxx

Tip

配置与额度

4.5 DeepSeek 准备(可选)

DeepSeek 的流程与 Qwen 类似,但当前不赠送免费 Tokens。

注册账号

  1. 访问 DeepSeek 开放平台:

https://platform.deepseek.com

  1. 点击"注册",使用手机号或邮箱完成注册
  2. 验证后登录控制台

创建API密钥

  1. 控制台左侧菜单 → API keys
  2. 点击“创建 API Key”
  3. 为密钥命名(如“我的第一个项目”)
  4. 复制生成的 API Key(格式类似:sk-xxxxxxxxxxxxx
  5. 充值。前10章10块钱足够了。

4.6 Coding/Token Plan Vs API调用付费

这是两种不同的模式,Coding/Token Plan类似于订阅服务,仅用于使用AI工具开发产品。 如果要在自己的产品中接入AI功能,不能使用Coding/Token Plan,有被封号的风险。只能使用API按量付费。

AI开发产品在产品中接入AI能力是完全两码事儿。

4.7 安装Python环境

Qwen官方支持多种编程语言,本书使用Python。

检查Python版本

打开终端(Mac/Linux)或命令提示符(Windows),输入:

python3 --version

如果显示Python 3.10或更高版本,说明已安装,尽量安装最新版本的Python。

如果没有安装,访问:

https://www.python.org/downloads/

下载并安装最新版本。

4.8 安装OpenAI Python库

是的,你没看错,安装的是OpenAI的库!因为Qwen的API兼容OpenAI接口。

pip install openai

等待安装完成。

验证安装

python3 -c "import openai; print(openai.__version__)"

如果显示版本号(如1.12.0),说明安装成功。

4.9 让AI代劳

其实现在没必要这么传统、机械的安装各种库了。与其自己动手,不如直接让AI给你干活。

用自然语言告诉AI你想做什么

现在用 Qoder 这类 AI 编程助手,不需要记忆复杂的安装命令。只需要把需求用自然语言告诉它,比如:

它会自动把这些自然语言转换成对应的命令行指令,调用相应的工具来完成安装。你不需要知道具体的命令是什么,也不需要关心不同操作系统的差异。

遇到任何问题直接问它

如果已经安装了Python环境,但是遇到各种问题,比如:

这些都不需要自己去搜索引擎找答案。直接把错误信息复制给AI,或者描述你遇到的问题,它会告诉你怎么解决。

场景示例

假设你安装了Python,但在终端输入 python3 --version 时提示"命令未找到"。这时候不需要自己去查文档,直接在 Qoder 里说:

我安装了Python,但是输入Python3 --version提示命令未找到,怎么解决?

AI会帮你排查:

  1. 检查Python是否真的安装了
  2. 检查安装路径是否添加到了环境变量
  3. 给出具体的修复命令

你告诉他遇到了什么问题,他直接帮你解决。这才是AI时代应有的开发方式。

4.10 NodeJS安装

这里还建议安装NodeJS的最新版本,本书后续不少代码也需要用到NodeJS环境。

NodeJS下载地址:

https://nodejs.org/zh-cn/download

4.11 代码写在哪里、怎么运行

前面的内容主要是在讲解概念和安装环境。从这里开始,我们要真正动手写代码、运行代码了。

在开始之前,先解决一个基础问题:代码写在哪里?怎么运行?

传统方式

如果你习惯使用传统的开发工具,可以用VS Code或者Pycharm来编写和运行Python代码。以VS Code为例,运行步骤:

  1. 安装VS Code和Python扩展
  2. 创建一个.py文件(如test.py
  3. 编写代码后,点击右上角的运行按钮
  4. 或者在终端中输入:python3 test.py

这种方式适合已经熟悉开发环境的读者。

AI Agent方式

如果你使用的是Qoder这类AI编程助手,事情会变得更简单。

Qoder不仅能帮你写代码,还能直接运行代码。你只需要:

  1. 在对话框中输入你的需求,比如"帮我创建一个测试Qwen API的Python脚本"
  2. Qoder会自动生成代码
  3. 点击代码块旁边的运行按钮,或者告诉它"运行这段代码"
  4. Qoder会在内置终端中执行,并直接显示结果

Tip

下一节就会用这种AI运行的方式来实际操作,看看怎么在AI coding工具里快速运行代码。

整个过程不需要你打开额外的编辑器或终端,所有操作都在Qoder中完成。

老实说,我自己已经快1年多没打开过PyCharm、VSCode或者IntelliJ了。因为我现在也基本上不会手写代码了,最多AI生成了,我快速review的时候看到错误顺手改一改;或者AI实在蠢的不可就要的时候,下场阅读代码后明确告诉他哪里有问题。

Tip

为什么这些AI coding工具都长得很像?

Qoder、TRAE、Cursor、CodeBuddy等AI编程工具的界面都和VS Code非常相似。这是因为它们大多是基于VS Code开源版本(code-oss)二次开发的。

这些工具在VS Code的基础上,深度集成了AI能力:智能代码补全、AI对话编程、自动运行代码等。它们保留了VS Code的插件生态和快捷键,同时加入了AI原生的交互方式。

所以,如果你之前用过VS Code,切换到这些AI coding工具会非常容易,几乎不需要重新学习。

4.12 下一节预告

准备工作已经就绪——API密钥已获取、Python环境已安装、openai库已就位。现在,终于可以开始第一次真正的API调用了。

下一节《第一次API调用与核心参数》,让我们从"Hello AI"开始,理解model、messages、role等核心参数的含义。

4.13 ■ 学点英语

中文 English 音标 说明
API密钥 API Key /ˈeɪpiːaɪ kiː/ 调用API的身份凭证,类似密码,绝对不能公开共享
环境变量 Environment Variable /ɪnˈvaɪrənmənt ˈveriəbl/ 存储API密钥的安全方式,避免硬编码在代码中
兼容接口 Compatible Interface /kəmˈpætəbl ˈɪntərfeɪs/ 其他模型厂商模仿OpenAI API风格的接口兼容策略
Tokens Tokens /ˈtoʊkənz/ 大模型处理文本的基本单位,中文约1字=1Token

4.14 ■ 思考帧

理解大模型开发(二)-实战篇 第一次API调用与核心参数
本节目录